Математическая основа
Основная цель — найти вектор $x \in \mathbb{R}^n$, такой что линейная комбинация $Ax = x_1a_1 + \dots + x_na_n$ наилучшим образом аппроксимирует $b$. Это часто называют регрессией $b$ на регрессоры (столбцы матрицы $A$).
Мы сосредоточены на векторе остатков $r = Ax - b$. На практике мы предполагаем переопределённую систему где $m > n$. Почему? Потому что при $m = n$ и невырожденной матрице $A$ оптимальная точка просто $A^{-1}b$, что даёт нулевую ошибку — тривиальный случай для оптимизации.
Канонические вариации
В зависимости от «характера» ошибки, которую мы хотим наказывать, выбираем разные нормы:
Наиболее распространённый подход. Он минимизирует сумму квадратов остатков: $\|Ax - b\|_2^2$. Чувствителен к большим выбросам, но предоставляет аналитическое решение через нормальные уравнения.
Минимизирует максимум абсолютного остатка $\max_i |r_i|$. Используется, когда каждое измерение должно оставаться в строгих пределах допуска. Может быть решено с помощью следующей линейной программы (ЛП):
минимизировать $t$
при условии $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$
Минимизирует $\sum |r_i|$. Этот подход устойчив к выбросам, так как не возводит ошибки в квадрат. Также может быть решён с помощью ЛП:
минимизировать $\mathbf{1}^T t$
при условии $-t \preceq Ax - b \preceq t$
Контекст оценки
Во многих инженерных областях мы предполагаем, что истинное состояние $x$ маскируется шумом: $y = Ax + v$. Наша цель — найти оценку $\hat{x} = \text{argmin}_z \|Az - y\|$. Выбирая норму, мы фактически делаем предположение о статистическом распределении шума $v$.